فراگمان - مجله ادبیات گمانه‌زن

🔸چالش‌های معنایی مدل‌های هوش مصنوعی در متن‌ها، و ظرافت آن‌ها در تصاویر

🔹اکنون که جهان در حال تغییر بسیار سریع تکنولوژی قرار گرفته و هوش مصنوعی‌ها هر روز پیشرفته‌تر می‌شوند، میخواهیم به این مسئله بپردازیم که چرا ماشین زودتر در استدلال و عمق دادن به تصاویر مهارت پیدا می‌کند و چرا در متن‌ها با چالش‌های جدی مواجه می‌شود.

🔹مدل های تولید تصویر (Text-to-Image Models) و (image to image )

مانند DALL-E 3، Midjourney و Stable Diffusion، Chat gpt, و همچنین قوی‌ترین مدل فعلی نانو بنانا پرو،

با سرعتی خیره‌کننده به سطحی از رئالیسم و عمق بصری دست یافتند که مرز میان عکاسی و تصویرسازی دیجیتال را تقریبا محو کرده‌اند.

این مدل‌ها قادرند بافت، نورپردازی، پرسپکتیو و حتی حالات چهره‌ای که بار عاطفی دارند را با مهارتی در سطح یک عکاس و نقاش بازسازی و تقلید کنند.

توانایی آن‌ها در خلق جزئیات بصری چنان پیشرفت کرده که تشخیص مصنوعی بودن آن‌ها برای چشم غیرمسلح دشوار و گاه ناممکن شده است.

و اما مدل‌های زبانی بزرگ (LLMs) نظیر GPT-4 و Claude و GEMINI PRO

که هرچند این مدل‌ها پیشرفت‌های عظیمی در تولید متن روان و منسجم داشته‌اند، اما همچنان در بازتولید و تقلید عمق متن با چالش‌های بنیادین دست‌وپنج نرم می‌کنند. منظور از عمق متن، آن لایه‌های زیرین معنا، کنایه، احساسات ضمنی و زیرمتن‌های فرهنگی هست که فراتر از ساختار ظاهری و دستوری جمله قرار دارند.

مدل‌های زبانی در رسیدن به این لایه‌ها کندتر عمل کرده‌اند.

حالا سوال این است که چرا هوش مصنوعی در ساختن تصویری که عمیق به نظر می‌رسد، سریع‌تر و موفق‌تر از نوشتن متنی است که حقیقتا عمیق باشد؟

🔹بیایم ابتدا بفهمیم عمق در متن و تصویر دقیقا یعنی چی، و برای ماشین چه مفهومی دارد.

در یک تصویر، عمق پدیده‌ایست که اغلب به الگوهای فیزیکی و نوری اشاره دارد، گرچه این عمق در تصاویر برای انسان بسیار می‌تواند هنرمندانه‌تر باشد اما برای ماشین تنها فیزیک و اعداد مهم هستند.

سایه‌روشن‌ها، گرادیان‌های رنگی و هندسه فضایی، این‌ها برای ماشین اصطلاحا بینایی می‌دهند.

عمق اما در متن، پدیده‌ای معناییست، کاربردی، مبتنی بر واقعیت که ریشه در تجربه زیسته و بافت فرهنگی و اجتماعی دارد.

🔸حالا بیایم بررسی کنیم تصاویر و متن چگونه به Ai آموزش داده می‌شوند،

این دو مفهوم در نظام شناختی متفاوتی هستند.

🔹برای ماشین در تصویر فیزیک نور و آمار پیکسل‌ها "عمق" اغلب همان معنی وفاداری به قوانین فیزیک نور و ادراک بصری انسان را می‌دهد.

مدل‌های هوش مصنوعی توانستند که این قوانین را با ریاضیات و فیزیک بیرون بکشند و تا حد بالایی شبیه‌سازی کنند.

این نوع عمق را می‌توان در سه سطح دسته‌بندی کرد که مدل‌های هوش مصنوعی در هر سه سطح پیشرفت‌های چشمگیری داشته‌اند.

▫️سطح اول، عمق فیزیکی:

🔻عمق فیزیکی معمولا به درک فاصله، حجم و موقعیت اشیا در فضا اشاره دارد. این جنبه از تصویر باعث می‌شود یک تصویر دوبعدی، سه‌بعدی به نظر برسد.

در مدل‌های کلاسیک بینایی ماشین، این مسئله از طریق نقشه‌های عمق و تخمین فاصله حل می‌شد.

اما مدل‌های مولد جدید، این ویژگی‌ها را دیگر به عنوان قوانین هندسی که قبلا توسط برنامه‌نویس‌ها کدنویسی می‌شوند نمی‌خوانند،

بلکه به عنوان توزیع‌های آماری در فضای نهان اصطلاحا Latent space که در اصل یک فضای ریاضیاتی فشرده و پنهان است که مدل‌های ماشین لرنینگ از آن برای نمایش داده‌ها استفاده می‌کنند.

در این فضا یاد می‌گیرند.

مطالعاتی نشان می‌دهد که استفاده از نقشه‌های عمق در کنار مدل‌های انتشار ، به مدل‌ها اجازه می‌دهد تا ساختارهای فضایی منسجمی تولید کنند که چشم انسان را کاملا فریب می‌دهند.

در این فرآیند پردازشی سنگین، عمق یک ویژگی سطحی است برای ماشین که از طریق روابط ریاضی و فیزیک صحیح پیکسل‌ها با یکدیگر شبیه‌سازی می‌شود. مثلا، کاهش کنتراست در فواصل دور یا تغییر اندازه اشیاء بر اساس پرسپکتیو، همگی الگوهای پیکسلی هستند.

این فرایند برای ماشین کاملا آماری و قابل اندازه‌گیری است و مدل‌ها با مشاهده میلیاردها تصویر، یاد می‌گیرند که چگونه این الگوها را تکرار و تقلید کنند و حتی با استفاده از میلیون‌ها تصویر و پیکسل چیزی جدید خلق کنند.

علاوه بر اینها، مدل‌های هوش مصنوعی مولد تصویری توانستند که بر چالش‌های عمق فیزیکی تقریبا غلبه کنند زیرا قوانین پرسپکتیو و نورپردازی که بر دنیای واقعی حاکم است، کمی هستند و قابل اندازه گیری و قابل کدگذاری‌.

مدل‌های مدرن (مانند شبکه‌های عصبی GAN یا diffusion یا نانو بنانا پرو گوگل) با مشاهده میلیون‌ها عکس یاد می‌گیرند که چگونه نور و سایه در صحنه‌ها چیده می‌شوند و از قواعد هندسی مانند نقطه گریز استفاده کنند.

مطالعات نشان می‌دهد که این مدل‌ها می‌توانند خودبه‌خود و خودکار پرسپکتیو درست را تشخیص دهند (مانند همگرا شدن جاده‌ها در دوردست) و شدت نور و سایه را بر اساس منبع نور تنظیم کنند.

بنابراین مطالعات می‌گویند که عمق فیزیکی تصویر با الگوهای ثابت و قانون‌مندی تعریف می‌شود که داده‌های فراوان تصویری آن‌ها را آشکار می‌کنند.

تا اینجا فهمیدیم مدل‌ها جگونه بر چالش‌های سطح فیزیکی تصاویر می‌توانند غلبه کنند.

▫️سطح دوم تصاویر برای ماشین، داستان فرق می‌کند،

در این سطح عمق سبکی هست که به تقلید از تکنیک‌های هنری مربوط می‌شود.

این شامل مواردی مانند ضرب‌قلم‌های ونگوگ، نورپردازی رامبراند، یا بافت‌های خاص نقاشی‌های امپرسیونیستی است. مدل‌های انتشار با مکانیزم‌هایی تحت عنوان جداسازی موفق شدند که ویژگی‌های مربوط به سبک و استایل را از محتوا تفکیک دهند.

پژوهش‌ها نشان می‌دهند که با استفاده از فضای نهان مدل‌هایی مانند CLIP، می‌توانند بردار استایل را مستقل از بردار محتوا دستکاری کرد.

محتوا مثل: چه چیزی در تصویر هست. مثلاً یه سگ، یه گربه، یا یه ماشین.

استایل مثل: چطور اون چیز نمایش داده می‌شه. رنگ، روشنایی، زاویه، بافت، هنری یا واقعی بودن تصویر، و غیره.

این تفکیک صرفا در فضای نهان مدل اتفاق می‌افتد، یعنی مدل یاد می‌گیرد این ویژگی‌ها را جدا کند، ولی ما نمی‌توانیم این کار را روی داده خام پیکسل‌ها انجام دهیم.

این قابلیت به این معناست که هوش مصنوعی می‌تواند حس یک نقاشی امپرسیونیستی را بدون درک فلسفه پشت آن یا زمینه تاریخی‌اش، صرفا با بازتولید و تقلید الگوهای بصری (مانند فرکانس رنگ و نوع بافت) تقلید کند. در اینجا، عمق هنری به مجموعه‌ای از ویژگی‌های بصری تقلیل می‌یابد که ماشین در بازتولید آن‌ها استاد است.

این مدل‌ها می‌توانند با یادگیری از انبوه آثار هنری و تصاویر نمونه، ساختارهای بصری منسجم و نسبت‌های زیباشناختی را تشخیص دهند.

پژوهشی در زمینه استایل‌آرت نشان می‌دهد که مدل‌های فعلی اکثرا تنها عناصر بصری سطحی مانند رنگ و بافت را تقلید می‌کنند و قادر نیستند معنی عمیق‌تر سبک هنری (نیت هنرمند یا بار فرهنگی اثر) را به‌طور کامل درک کنند.

تا اینجا فهمیدیم که مدل‌ها در دو سطح تصاویر تا حدی موفق عمل کرده‌اند،

حالا می‌پردازیم به سطح سوم و پیچیده‌ترین سطح پردازشی و معنایی تصاویر.

▫️عمق احساسی، لایه پیچیده تصاویر

پیچیده‌ترین سطح در تصویر، عمق احساسی هست.

سوال اینه که چطور یک تصویر حس غم یا نوستالژی را منتقل می‌کند؟

اصلا چطور ارتباط بینشان را می‌فهمد؟

ما در بینایی ماشین، مفهومی داریم به نام شکاف عاطفی، که به فاصله بین ویژگی‌های سطح پایین (پیکسل‌ها) و مفاهیم سطح بالا (احساسات) اشاره می‌کند.

با این حال، هوش مصنوعی با یادگیری همبستگی‌های آماری عظیم بین توصیفات متنی و ویژگی‌های بصری، این شکاف را تا حد خوبی پر کرده است.

تحقیقات جدید نشان می‌دهد که مدل‌ها یاد گرفته‌اند ترکیب‌های رنگی خاص، زوایای دوربین و حالات چهره را با برچسب‌های احساسی مرتبط کنند. برای مثال، تنهایی در زبان بصری هوش مصنوعی به معنای فضای منفی زیاد، رنگ‌های سرد و فیگورهای کوچک است. این یک ترجمه آماری از احساس به فرم هندسی و ریاضی است. بنابراین، هوش مصنوعی نیازی به احساس کردن تنهایی ندارد تا تصویری عمیقا تنها خلق کند؛ او تنها نیاز دارد الگوی بصری متناظر و مرتبط با واژه تنهایی را اجرا کند.

رنگ‌های سرد و تضاد کم معمولا با غم همراه‌ هستند نور جانبی و قاب بسته ممکن است حس تنهایی یا درون‌گرایی را برساند.

تحقیقی اخیرا نشان داده است که مدل‌های متن به تصویر توانسته‌اند ارتباطات معناداری بین ویژگی‌های رنگی تصویر و احساسات برقرار کنند؛ مثلا ترکیب رنگ‌های قرمزِ پررنگ و اشباع شده با احساس شادمانی یا خشم، و روشنایی بالا با حسِ آرامش یا سرخوشی مرتبط میشود،

این نتایج نشان می‌دهند که احساس تصویر درنهایت برای ماشین از الگوهای قابل‌شناسایی (رنگ، کنتراست، ترکیب‌بندی) تشکیل شده است.

🔸عمق در متن، لایه‌های پیچیده معنایی

عمق در متن‌ها ماهیت کاملا متفاوت دارد.

به طور کلی زبان یک سیستم نمادین گسسته هست که معنای آن در خود نمادها نیست، بلکه در ارجاع آن‌ها به جهان، زمینه، فرهنگ، اجتماع، تجربه و نیت گوینده نهفته است.

برخلاف تصویر که سیگنال‌هایش پیوسته و متراکم هستند، زبان سیستمی انتزاعی و قراردادی‌ست.

🔹عمق معنایی در متن چیست؟

عمق معنایی متن به رابطه واژگان با مفاهیم و واقعیات جهان می‌گویند.

در مدل‌های زبانی بزرگ (LLM) با وجود حجم داده‌های تریلیونی، همچنان با مسئله بنیان‌گذاری نماد مواجه‌اند.

جان سرل در آزمایشی تحت عنوان اتاق چینی و هیوبرت دریفوس در نقدهای پدیدارشناسانه خود مطرح کرده‌ که دستکاری نحو و دستور لغات، به معنای درک معنا در متن نیست.

هوش مصنوعی می‌داند که واژه سیب با قرمز و میوه همبستگی آماری دارد، اما هیچ تجربه حسی یا فیزیکی از سیب ندارد. در نتیجه، متون تولید شده توسط هوش مصنوعی اغلب فاقد وزن هستی‌شناختی هستند.

مدل‌های زبانی در سطح معنی سطحی بسیار مهارت پیداکردند، به علت دیدن حجم میلیونی از متن‌ها

که باعث شده ترکیب کلمات را آموخته و جملات به‌ظاهر روان و منسجم می‌سازند، اما این سطح تنها لباس مبدل صورت مسئله است؛

زبان همیشه بیش از واژه‌ها منتقل می‌کند.

🔹عمق کاربردی متن

چالش بزرگتر برای ماشین در لایه کاربردشناسی متن هست.

زبان انسان پر از کنایه، استعاره، طنز و مفاهیم ضمنی است که تنها با درک نیت گوینده و بافت موقعیتی قابل تفسیرند.

در چارچوب کنش گفتار عقلانی که انسان‌ها در ارتباط با دیگران، مدلی از ذهن شنونده را شبیه‌سازی می‌کنند و بر اساس آن سخن می‌گویند.

اما LLMها فاقد نظریه ذهن هستند و نمی‌توانند نیت‌های پیچیده و چندلایه‌ای را که در پس یک جمله ساده پنهان شده است، درک کنند. پژوهش‌ها نشان می‌دهند که مدل‌ها در تشخیص نقض عمدی اصول گرایس مانند زمانی که کسی برای طعنه زدن، اصلی را زیر پا می‌گذارد، شکست می‌خورند و تمایل دارند جملات را به صورت تحت‌اللفظی یا با توضیحات اضافی (که عمق را از بین می‌برد) تفسیر کنند.

معنی کاربردی/موقعیتی به شرایط و زمینه اشاره دارد؛ مثلا یک جمله ساده مانند "من خسته‌ام" در موقعیت‌های متفاوت (شخصی، ادبیات یا طنز) برداشت‌های مختلف در پی دارد.

🔹زیر متن، پیچیده‌ترین لایه متن

عمیق‌ترین و پیچیده‌ترین لایه متن، زیرمتن است؛ آنچه گفته نمی‌شود اما شنیده می‌شود.

همان اصل کوه یخ،

زیرمتن حاصل تجربه زیسته مشترک بین نویسنده و خواننده است. وقتی نویسنده‌ای از سکوت سنگین اتاق می‌نویسد، خواننده ا بر اساس تجربه خود از تنش اجتماعی، آن را درک می‌کند.

اما هوش مصنوعی فاقد تجربه است و تجربه‌ای از تنش، درد، یا شرم ندارد. به همین دلیل، تلاش هوش مصنوعی برای تولید زیرمتن اغلب به کلیشه‌های زبانی ختم می‌شود که فاقد ظرافت عاطفی واقعی هستند. در متن سطح (واژگان) نمی‌تواند جایگزین عمق (تجربه) شود، در حالی که در تصویر، سطح (پیکسل‌ها) سازنده عمق است.

برخلاف تصویر احساس یا معنی مخفی در متن با خود واژگان ترکیب نیست که آشکارا قابل تشخیص باشد؛ بلکه نیاز به زمینه‌ی گسترده‌تر دارد. پژوهشی در سال ۲۰۲۵ نتیجه گرفت که LLMها گرچه توانسته‌اند دسته‌بندی‌های کلی زبان را مانند انسان تقلید کنند، اما در تشخیص تفکیک‌های معنایی ریز و جزئی که برای فهم انسانی ضروری هستند شکست می‌خورند.

🔸چرا مدل‌های هوش مصنوعی در فریب دادن موفق می‌شوند؟

🔹برای پاسخ به این پرسش باید با متد‌های یادگیری ماشین بیشتر آشنا شویم.

🔹مدل‌های تصویری چطور آموزش می‌بینند.

مدل‌های تولید تصویر مانند Stable Diffusion، نانو بنانا پرو

در واقع فرایند تولید را به عنوان معکوس کردن نویز مدل‌سازی می‌کنند. آن‌ها یاد می‌گیرند که چگونه از یک آشفتگی کامل (نویز گاوسی) به یک تصویر ساختاریافته برسند. این فرایند ذاتا با ماهیت دنیای فیزیکی و بصری همخوانی دارد.

جایی که اشیا دارای مرزهای مشخص، بافت‌های پیوسته و روابط فضایی پایدار هستند.

پژوهش‌ها نشان می‌دهند که فضای نهان این مدل‌ها توانایی شگفت‌انگیزی در کدگذاری ویژگی‌های سطح بالا (مانند "سبک باروک") و ترکیب آن‌ها با ویژگی‌های سطح پایین (مانند "لبه‌ها") دارد. از آنجا که ادراک انسان از "واقعیت تصویری" به شدت وابسته به انسجام نوری و بافتی‌ست.

مدل‌ها با بهینه‌سازی توابع هزینه ریاضی (مانند FID یا PSNR) می‌توانند خروجی‌هایی تولید کنند که از نظر ادراکی "بی‌نقص" به نظر می‌رسند.

حتی اگر تصویر از نظر معنایی عجیب باشد (مثلاً فضانوردی سوار بر اسب در مریخ)، اگر نورپردازی و بافت درست باشد، مغز ما آن را به عنوان یک "تصویر واقعی از یک رویداد غیرواقعی" می‌پذیرد. این یعنی "عمق بصری" (به معنای سه بعدی بودن و حضور فیزیکی) مستقل از "معنای گزاره‌ای" تصویر حفظ می‌شود.

مدل‌های تصویری، به‌ویژه شبکه‌های کانولوشنی و ترانسفورمرهای بینایی، با داده‌های عظیم و برچسب‌خورده (تصاویر با نقشه‌های عمق، سبک، احساس) آموزش می‌بینند. ساختار داده‌ها در اینجا پیوسته، کم‌ابهام و مبتنی بر قوانین جهان هست

این ویژگی‌ها باعث می‌شود که مدل‌ها بتوانند با سرعت و دقت بالا، عمق فیزیکی، سبکی و حتی احساسی را بازتولید کنند.

🔸یادگیری ماشین در مدل‌های زبانی

در مقابل، مدل‌های زبانی بزرگ چون GPT و Gemini و.. بر اساس پیش‌بینی کلمه و پارامتر بعدی آموزش می‌بینند. اگرچه این مکانیزم برای تولید جملات دستوری و حفظ انسجام موضعی به خودی خود قدرتمنده، اما در حفظ "انسجام جهانی" و "نیت پایدار" که لازمه عمق متنی است، دچار مشکل می‌شوند.

در متن، تغییر یک کلمه می‌تواند کل معنا و لحن را تغییر دهد. زبان سیستم حساسی است که در آن "پیوستگی" وجود ندارد.

فاصله بین کلمات "عشق" و "نفرت" در فضای برداری ممکن است کم باشد، اما در فضای معنایی و عاطفی بسیار زیاد است. مدل‌ها اغلب در انتخاب کلماتی که بار عاطفی دقیق و زیرمتن مناسب دارند، میل به سمت "میانگین آماری" دارند

این پدیده باعث می‌شود متون تولید شده اغلب صاف، خنثی و فاقد آن "تیزی" و "ابهام سازنده‌ای" باشند که در ادبیات انسانی وجود دارد.

تحقیقات نشان می‌دهد که انسان‌ها در بازی‌های هماهنگی و زبانی، از نقاط مشترک برای رفع ابهام استفاده می‌کنند، مهارتی که هوش مصنوعی به دلیل نداشتن تجربه مشترک اجتماعی، در آن ضعف دارد.

مدل‌های زبانی با داده‌های عظیم اما ناهمگن، پراکنده و وابسته به زمینه آموزش می‌بینند. معنا در متن، چندلایه، وابسته به تجربه و زمینه، و اغلب مبهم است. به همین دلیل، مدل‌ها حتی با معماری‌های پیشرفته، در بازتولید عمق معنایی، کاربردی و زیرمتنی چالش های جدی دارندـ

در واقع، مدل‌های زبانی با بهینه‌سازی برای پیش‌بینی کلمات، کنایه، زیرمتن، تضادها و ابهامِ معنی را قربانی می‌کنند، زیرا هدف آن‌ها صرفا کارآمدی آماری است.

🔸چالش ابهام متن‌ها و تصاویر

🔹ابهام بصری

در تصویر، ابهام اغلب با افزودن جزئیات تقریبا حل می‌شود یا حتی تقویت می‌گردد. یک نقاشی امپرسیونیستی که چهره‌ای را مبهم نشان می‌دهد، از طریق بافت رنگ و نور، احساسی عمیق می‌تواند ایجاد کند. هوش مصنوعی در تولید این نوع "ابهام سبکی" موفق‌تر است زیرا یاد گرفته است که ابهام بصری خود یک "الگو" است.

پژوهش‌ها بر روی "استعاره‌های بصری" نشان می‌دهد که مدل‌های جدید می‌توانند مفاهیم انتزاعی (مانند "زمان به مثابه رودخانه") را با ترکیب عناصر بصری (ساعت‌های ذوب شده در آب) بازتولید کنند. در اینجا، استعاره به یک ترکیب صریح از اشیاء تبدیل می‌شود که اگرچه نمادین است، اما از نظر بصری کاملا "روشن" و "واضح" اجرا می‌شود.

بیننده با دیدن تصویر، بلافاصله استعاره را درک می‌کند زیرا زبان تصویر جهانی‌تر و مستقیم‌تر است.

🔹ابهام متن‌ها

در متن، ابهام (مانند ایهام، کنایه، سکوت) وابسته به کاربرد آن است،

همان‌طور که ویتگنشتاین در آزمایشی نشان داد "معنا، کاربرد است".

مدل‌های هوش مصنوعی زبان را خارج از "بازی‌های زبانی" واقعی یاد می‌گیرند. آن‌ها متن را به عنوان داده‌های ایستا می‌بینند، نه کنش‌های پویا در یک بافت اجتماعی.

پژوهش‌های اخیر در حوزه "پراگماتیک در عصر LLM" نشان می‌دهد که این مدل‌ها در درک متونی که نیازمند استنتاج‌های چندمرحله‌ای درباره وضعیت ذهنی گوینده هستند ، عملکرد ناپایدار و شکست‌خورده‌ای دارند. برای مثال، اگر شخصیتی در داستان بگوید "چه هوای عالی‌ای!" در حالی که بیرون طوفان است، هوش مصنوعی ممکن است آن را توصیف واقعی هوا تلقی کند یا اگر کنایه را تشخیص دهد، آن را با توضیحی صریح ("او کنایه می‌زند چون هوا بد است") خراب کند. این ناتوانی در "حفظ ابهام" و تمایل به "توضیح دادن"، عمق متن را از بین می‌برد.

در ادبیات، آنچه نگفته می‌ماند (زیرمتن) مهم‌تر از گفته‌هاست؛ اما برای مدلی که بر اساس "بیشینه‌سازی احتمال کلمه بعدی" کار می‌کند، "نگفتن" گزینه‌ای دشوار است. متن ابهام‌آمیز به دانش پشتوانه و تفسیر محاوره‌ای نیاز دارد که مدل‌ها آن را ندارند. مدل‌های متنی صرفا آماری عمل می‌کنند و توانایی اشتباه یا سوال اضافی پرسیدن در مواجهه با ابهام را ندارند.

🔹لو مانوویچ نظریه‌پرداز برجسته رسانه‌های دیجیتال، او می‌گوید که هوش مصنوعی مولد، پارادایم "زیبایی‌شناسی سطح" را به اوج رسانده است.

در تاریخ هنر مدرن، حرکت به سمت انتزاع و حذف جزئیات بود تا به "ماهیت" یا "عمق" سوژه برسند. اما هوش مصنوعی مسیری معکوس دارد "رئالیسم مصنوعی" یا "فرا-واقع‌گرایی" که در آن جزئیات، بافت‌ها و نورپردازی به شکلی اغراق‌آمیز و بی‌نقص اجرا می‌شوند.

مانوویچ معتقد است که در تصویر هوش مصنوعی، ما با "شبیه‌سازی" مواجهیم نه "بازنمایی"

از آنجا که در تصویر، جذابیت زیبایی‌شناختی تا حد زیادی به همین ویژگی‌های سطحی (رنگ، ترکیب‌بندی، بافت) وابسته است، مخاطب معمولی و حتی متخصصان به راحتی این "سطح غنی" را به عنوان "عمق هنری" می‌پذیرند. ما نیازی نداریم بدانیم که آیا نقاش واقعا غمگین بوده تا از تماشای یک منظره غم‌انگیز و زیبا لذت ببریم. "زیبایی‌شناسی سطح" در تصویر کفایت می‌کند.

🔸توهم در متن و تصویر

اصطلاح "توهم" که برای خطاهای LLM به کار می‌رود،

وقتی مدلی متنی زیبا اما دروغین درباره یک واقعه تاریخی می‌نویسد، زیبایی سطحی آن نمی‌تواند شکست در "عمق حقیقت" را پنهان کند. در تصویر، "دروغ" می‌تواند هنر باشد؛ در متن (غیر داستانی)، دروغ صرفا خطاست.

حتی در داستان‌نویسی، عدم رعایت "منطق درونی" شخصیت‌ها (که نیازمند درک عمیق روانشناختی است) باعث می‌شود متن سطحی و غیرقابل باور به نظر برسد.

🔸فرایند فیزیکی تولید تصویر و احساس

در فیزیک ماشین تولید تصویر و دینامیک‌های انتشار با الهام از ترمودینامیک غیرتعادلی طراحی شده‌اند و فرایند تولید تصویر را به عنوان معکوس کردن یک فرایند آنتروپی‌زا می‌بینند. تحقیقات نشان می‌دهد که فرآیند بازگشت از آشوب (نویز) به نظم، خطی نیست و دارای فازهای متفاوتیه،

▫️فاز پروفایل‌سازی که در مراحل اولیه هست و مدل بر بازیابی میانگین‌های کلی و توزیع‌های آماری کلان تمرکز دارد.

در این مرحله، قالب کلی تصویر و پالت رنگی تعیین می‌شود. از آنجا که "احساس" تصویر به شدت به ویژگی‌های کلی نظیر رنگ و نور وابسته است، بنیان‌های عاطفی تصویر دقیقا در همین فاز اولیه و با سرعت بالا شکل می‌گیرند.

▫️فاز جه، در مراحل میانی، مدل شروع به تفکیک اشیاء و ایجاد فرم‌های مشخص می‌کند.

▫️فاز پالایش در مراحل پایانی و سطح پایبن، مدل بر روی جزئیات فرکانس بالا و دقیق‌سازی لبه‌ها تمرکز می‌کند. این همان جایی است که ساختارهای دقیق آناتومیک باید شکل بگیرند.

ویژگی‌های عاطفی (رنگ، نور) در همان مراحل اولیه زمان تولید تثبیت می‌شوند. اما صحت و درستی ساختاری نیازمند موفقیت کامل فاز سوم (پالایش) است. هرگونه خطا در مراحل پایانی، ساختار را تخریب می‌کند، اما تأثیر چندانی بر بار عاطفی (که قبلا تثبیت شده) ندارد.

🔹نوسان فراموشی

تحقیقات جدید نشان می‌دهند که مدل ممکن است در مراحل میانی به یک پاسخ ساختاری صحیح برسد، اما در مراحل بعدیِ نویززدایی، به دلیل تلاش برای بهینه‌سازی بافت، ساختار صحیح را بازنویسی کرده و تخریب کند.

مدل‌ها اغلب با تضادی میان زیبایی بافتی و صحت ساختاری مواجه می‌شوند. توابع هزینه معمولا بر تطابق پیکسلی یا ویژگی‌های ادراکی تمرکز دارند، بنابراین مدل ممکن است ترجیح دهد بافتی بسیار زیبا و واقع‌گرایانه تولید کند، حتی اگر این کار به قیمت ادغام شدن دو انگشت تمام شود یا دست و پاهای سوژه را جا به جا کند.

در واقع، مدل زیبایی‌شناسی بافت (حامل احساس) را بر منطق هندسی ترجیح می‌دهد.

🔸نظریات مرتبط

🔹تقدم عاطفی

زاجونک در دهه ۱۹۸۰ فرضیه مشهور تقدم عاطفی را مطرح کرد که بیان می‌کند واکنش‌های عاطفی می‌توانند پیش از و مستقل از پردازش شناختی دقیق رخ دهند. وقتی انسان با یک تصویر AI مواجه می‌شود، دو مسیر پردازش فعال می‌شود:

پردازش سریع (مسیر آمیگدال)،

که اطلاعات فرکانس پایین (رنگ، تاری، نور) بلافاصله توسط سیستم لیمبیک پردازش شده و یک پاسخ عاطفی (ترس، لذت، آرامش) ایجاد می‌کنند. این اتفاق در میلی‌ثانیه‌های اول رخ می‌دهد.

پردازش کند (مسیر قشری)،

که کورتکس بینایی شروع به تحلیل دقیق اجزاء، شمارش انگشتان و بررسی پرسپکتیو می‌کند.

از آنجا که مدل‌های AI در تولید محرک‌های مسیر اول (فرکانس پایین) استاد هستند، ضربه عاطفی قبل از اینکه نقد ساختاری فرصت بروز پیدا کند، به بیننده وارد می‌شود. حتی وقتی بیننده متوجه خطا می‌شود، اثر عاطفی اولیه قبلا ثبت شده است و بیننده فریب می‌خورد.

🔸پژوهش Emo Gen

پژوهشگران در توسعه مدل EmoGen، تأثیر استفاده از توابع هزینه مختلف را بر خروجی مدل بررسی کردند.

نتایج نشان داد که مدل پایه دارای دقت عاطفی ۷۲.۴٪ و نمره کیفیت ساختاری ۱۶.۵ است.

با افزودن مکانیزم اطمینان عاطفی، دقت عاطفی به ۸۵.۳٪ جهش کرد.

نکته اینه که کیفیت ساختاری بهبود چشمگیری نمیکند (به ۱۴.۸ می‌رسد)

و وضوح معنایی نیز تغییر اندکی می‌کند.

🔹گزارش دانشگاه استنفورد

گزارش AI Index 2025 دانشگاه استنفورد نشان می‌دهد که بنچمارک‌های تصویر مانند ImageNet اشباع شده‌اند و مدل‌ها از انسان پیشی گرفته‌اند. کاهش مداوم کیفیت ساختاری نشان‌دهنده بهبود واقع‌گرایی ادراکی است. اما در متن، بنچمارک‌های جدیدتر که بر نظریه ذهن و پراگماتیک تمرکز دارند، همچنان شکاف قابل توجهی بین مدل‌ها و انسان نشان می‌دهند. مدل‌ها در استدلال سخت (مانند ریاضیات) فرا بشری شده‌اند، اما در درک باورهای غلط و کنایه ضعف شدید دارند.

🔸آیا هوش مصنوعی در متن شکست خورده است؟ خیر.

هوش مصنوعی در متن متفاوت عمل می‌کند؛ هوش مصنوعی دایره‌المعارف هوشمندی است اما نه یک فیلسوف یا یک شاعر و نویسنده،

برای اینکه هوش مصنوعی بتواند در متن به همان عمقی برسد که در تصویر رسیده است، و همچنین برای اینکه بتواند ساختار را در تصویر اصلاح کند، احتمالا نیاز به تغییر پارادایم از یادگیری آماری روی داده‌های ایستا به یادگیری تجربی در محیط‌های تعاملی و استفاده از مدل‌های واقعیت جهان خواهیم داشت.

همانطور که یا لکان مدیر هوش مصنوعی شرکت متا و یکی از پدران Ai می‌گوید:

مدل‌های زبانی فعلی هرگز به هوش واقعی انسان نمی‌رسند چون درک درستی از واقعیت ندارند. ما به یک معماری کاملا جدید نیاز داریم.

امیدوارم از مقاله لذت برده باشید.

آیا هوش مصنوعی در تقلید عمق تصاویر موفق‌تر است؟ چرا متن‌ها نه؟

🔸چالش‌های معنایی مدل‌های هوش مصنوعی در متن‌ها، و ظرافت آن‌ها در تصاویر

▫️سطح اول، عمق فیزیکی:

🔸عمق در متن، لایه‌های پیچیده معنایی

🔸چرا مدل‌های هوش مصنوعی در فریب دادن موفق می‌شوند؟

🔸یادگیری ماشین در مدل‌های زبانی

🔸چالش ابهام متن‌ها و تصاویر

🔸توهم در متن و تصویر

🔸فرایند فیزیکی تولید تصویر و احساس

🔸نظریات مرتبط

🔸پژوهش Emo Gen

حس شما به این مطلب؟

نظرات (1)

نظرات (1)

ارسال نظر جدید

ع.م حسنی

سردبیر

جهان ادبیات فانتزی

🔸چالش‌های معنایی مدل‌های هوش مصنوعی در متن‌ها، و ظرافت آن‌ها در تصاویر

▫️سطح اول، عمق فیزیکی:

🔸عمق در متن، لایه‌های پیچیده معنایی

🔸چرا مدل‌های هوش مصنوعی در فریب دادن موفق می‌شوند؟

🔸یادگیری ماشین در مدل‌های زبانی

🔸چالش ابهام متن‌ها و تصاویر

🔸توهم در متن و تصویر

🔸فرایند فیزیکی تولید تصویر و احساس

🔸نظریات مرتبط

🔸پژوهش Emo Gen

حس شما به این مطلب؟

واکنش شما ثبت شد!

مقالات مشابه

هوش مصنوعی و نوشتن - پارت اول

نظرات (1)

نظرات (1)

ارسال نظر جدید

ع.م حسنی

سردبیر

جهان ادبیات فانتزی